查看原文
其他

ACL 2021 | 基于全局字符关联机制联邦学习的中文分词

陈桂敏 PaperWeekly 2022-07-04


作者 | 陈桂敏

来源 | QTrade AI研究中心

 

QTrade AI 研究中心是一支将近 30 人的团队,主要研究方向包括:预训练模型、信息抽取、对话机器人、内容推荐等。本文介绍的是一篇收录于 ACL 2021 的论文,论文提出了基于全局字符关联机制联邦学习的神经网络模型,用于数据隔离的场景下提升模型在中文分词任务的性能。



论文标题:

Federated Chinese Word Segmentation with Global Character Associations

论文链接:

https://aclanthology.org/2021.findings-acl.376.pdf

代码链接:

https://github.com/cuhksz-nlp/GCASeg

      


背景介绍

中文分词(Chinese Word Segmentation,CWS)是中文信息处理的基础任务之一。该研究任务常见的问题是未登录词,即不在词表或模型训练过程没有遇见过的词。研究表明,利用更多的数据于训练,能有效解决未登录词问题,提升模型的性能。

在实际应用过程中,存在数据孤立的场景,即数据被存储于不同的地方,因为隐私或法律的因素导致数据彼此不可见、互相孤立。针对数据孤立问题,前人提出了联邦学习(Federated Learning,FL),通过分布式学习的方法,在保证数据隐私安全和合法合规的基础上,实现共同建模,提升模型的性能。

考虑到数据孤立场景下的中文分词任务,该研究提出一种基于全局字符关联机制的神经网络模型(GCA-FL),通过联邦学习的方式,基于五个孤立节点的模拟环境,将彼此不可见且互相隔离的数据用于训练,增强了模型从不同数据源中学习的能力,提升模型在中文分词任务上的性能。

图 1 是模型基于联邦学习方式训练的整体框架图,图中展示了服务器端的模型如何跟每个节点加密通信,将互不可见的数据用于训练;图 2 是基于全局字符关联机制联邦学习的中文分词模型架构图,图中展示了文本数据如何输入模型并解码分词的过程。


模型设计

模型如何通过联邦学习方式训练的过程如图 1。模型存放于服务器端,数据存放于节点,而且不同节点之间数据孤立不可见。服务器端的模型和每个节点通信的过程可以分成三个步骤:节点将数据加密传给服务器、服务器端的模型基于加密的数据前向计算并将解码后的分词标签(Word Segmentation Tags)传给节点、节点基于回传的分词标签计算 loss,最后模型根据 loss 反向传播计算梯度并更新参数。


▲ 图1:模型基于联邦学习方法训练的整体框架图

服务器端的模型结构如图 2。对于每一个输入的加密文本,根据文本匹配中的 n-gram 构建键-值记忆槽,其中,键指命中的 n-gram,值指在 n-gram 中的位置,包括:词首 VB、词中 VI、词尾 VE、单字 VS。然后,使用编码器(Text Encoder)提取文本序列的表征 h,将文本序列的表征 h 和键-值记忆槽输入记忆神经网络模块 GCA。

在 GCA 模块里,对于文本序列中的每一个词,将其与在 ngram 中的位置信息作为上下文特征进行编码,同时,为了区分不同上下文特征的重要性,采用注意力机制,通过计算词与键(n-gram embedding)之间的点积,作为权重分配给上下文特征(position embedding),突出重要信息的作用。最后,基于 GCA 的输出,预测每个词的标签,得到分词结果。

▲ 图2:基于全局字符关联机制联邦学习的中文分词模型架构图


实验结果

该论文通过模拟联邦学习的方式,在五个基准数据集上评测模型的性能。表 1 展示了不同模型在五个基准数据集上 F1 值的结果。实验结果验证了全局字符关联机制的效果,以及联邦学习能够利用孤立的数据提升模型的性能。


▲ 表1:模型在五个基准数据集的性能

此外,论文还分析了模型在未登录词(OOV)的表现,图 3 是模型在五个基准数据集上未登录词的召回率。实验结果同样验证了联邦学习和全局字关联机制的有效性。


▲ 图3:模型在五个基准数据集未登录词(OOV)的召回率




论文总结

该研究开创性探索了中文分词任务通过联邦学习的方法利用孤立的数据,并设计全局字符关联机制提升模型在每个基准数据集的性能。



关于 QTrade


QTrade 是腾讯旗下领先的金融科技与监管科技公司,致力于为金融固定收益行业提供专业化、智能化的交易解决方案。以腾讯的即时通讯工具(IM)为入口、金融市场实时行情数据为依托、AI 语义解析能力为核心,QTrade 通过深耕固收市场交易业务流程、深挖交易痛点,搭建了以连接市场、提升效率、发现价值、满足合规为四大价值体系的产品版图,为固收市场及从业者提供自动化、集成化的智能平台服务。


欢迎 AI 领域志同道合的伙伴加入 QTrade:

zhaopin@qtrade.com.cn

 

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存